2. Sıralama Mekanizmaları

MTEB leaderboard'unun en teknik ve sıklıkla yanlış anlaşılan yönü, genel sıralamanın nasıl hesaplandığıdır. Leaderboard'da iki temel sıralama mekanizması kullanılır.

2.1 Borda Rank (Birincil Sıralama Yöntemi)

Borda rank, MTEB leaderboard'unun genel sıralamasını belirleyen ana mekanizmadır. Sosyal seçim teorisinden (social choice theory) ödünç alınan bu yöntem, seçim sistemlerindeki "Borda sayımı"nın (Borda count) benchmark dünyasına uyarlanmış halidir.

Çalışma prensibi:

Avantajlar:

Sınırlılıklar:

2.2 Mean (Task) — Görev Bazında Ortalama

Bir modelin koşulduğu tüm bireysel görevlerdeki ham skorların aritmetik ortalamasıdır. Örneğin bir model 50 göreve koşulmuş ve her birinden bir skor almışsa, bu 50 skorun ortalaması Mean (Task) değerini verir.

Dikkat edilmesi gereken nokta: Farklı görev türlerindeki metrikler farklı ölçeklerde olabilir. nDCG@10 genellikle 0.3-0.7 aralığında seyrederken, V-measure 0.2-0.5 aralığında kalabilir. Bu nedenle Mean (Task) değeri, görev türü dağılımından etkilenir.

2.3 Mean (TaskType) — Görev Türü Bazında Ortalama

Önce her görev türü (Retrieval, STS, Clustering vb.) içindeki görevlerin ortalaması alınır, ardından bu görev türü ortalamalarının ortalaması hesaplanır. Bu iki aşamalı ortalama, görev türleri arasında denge kurmayı amaçlar.

Örneğin retrieval kategorisinde 15, STS kategorisinde 3 görev varsa, Mean (Task)'te retrieval doğal olarak baskın olur. Mean (TaskType) ise her iki kategoriye eşit ağırlık vererek bu dengesizliği düzeltir.

2.4 Borda Rank ile Mean Arasındaki İlişki

Bu iki metrik farklı hikayeler anlatabilir. Leaderboard'daki snapshot'larda bu açıkça görülür: Borda rank'teki sıralama ile Mean (Task) sıralaması örtüşmeyebilir.

Güncel MMTEB snapshot'ında örnekler:

Bu fark şu anlama gelir:

Model seçiminde her iki metriğin birlikte değerlendirilmesi gerekir.